查看原文
其他

​从重参数的角度看离散概率分布的构建

苏剑林 PaperWeekly 2022-07-15


©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络


一般来说,神经网络的输出都是无约束的,也就是值域为 ,而为了得到有约束的输出,通常是采用加激活函数的方式。例如,如果我们想要输出一个概率分布来代表每个类别的概率,那么通常在最后加上 Softmax 作为激活函数。那么一个紧接着的疑问就是:除了 Softmax,还有什么别的操作能生成一个概率分布吗?

在《漫谈重参数:从正态分布到 Gumbel Softmax》[1] 中,我们介绍了 Softmax 的重参数操作,本文将这个过程反过来,即先定义重参数操作,然后去反推对应的概率分布,从而得到一个理解概率分布构建的新视角。



问题定义

假设模型的输出向量为 ,不失一般性,这里假设 两两不等。我们希望通过某个变换 转换为 元概率分布 ,并保持一定的性质。比如,最基本的要求是:

当然,这些要求都很平凡,只要 的单调函数(对于 Softmax 有 ),那么变换

都可以满足上述要求。接下来我们增加一个不那么平凡的条件:

其中 代表全 1 向量, 则是任意常数。也就是说, 的每个分量都加上同一常数后,变换的结果保持不变。容易检验 Softmax 是满足这个条件的,然而除了 Softmax 外,我们似乎很难想到别的变换了。



噪声扰动
非常有意思的是,我们可以借助重参数(Reparameterization)的逆过程来构造这样的变换!假设 是从分布 独立重复采样 次得到的向量,由于 是随机的,那么 通常也是随机的,那么我们可以通过

来定义变换 。由于 是独立同分布的,且整个定义只跟 有关,也就是只涉及到每个分量的相对大小,因此所定义的变换必然是满足前述4个条件的。

我们也可以通过直接算出 的形式来判断它满足的性质。具体来说, 意味着

也就是 ,显然 越大该式成立的可能性越大,也即 越大对应的 越大,这便是条件 3。具体来说,固定 的情况下,满足该条件的概率是


这里 的累积分布函数(Cumulative Distribution Function)。由于各个 都是独立同分布的,因此我们可以将概率直接连乘起来:

这是固定 的情况下, 的概率。最后我们只需要对 求平均,就可以得到

的表达式可以看到它只依赖于相对值 ,因此显然它满足定义中的条件 4。



温故知新

对照《漫谈重参数:从正态分布到 Gumbel Softmax》[1] 中关于 Gumbel Max [2] 的介绍,我们可以发现上述推导跟重参数正好相反,它是先定义了重参数的方法,然后在反向推导出对应的概率分布。

现在我们可以来重新检验一下之前的结果,即当噪声分布取 Gumbel 分布时,式(8)是否能得到常规的 Softmax 操作。Gumbel 噪声是 通过 变换而来,由于 的分布正好是 ,所以解出来 正好就是 Gumbel 分布的累积分布函数,即 ,而 就是 的导数,即

将上述结果代入式(8)得

这正好是 Softmax。于是我们再次验证了 Gumbel Max 与 Softmax 的对应关系。



数值计算
能像 Gumbel 分布那样解出诸如 Softmax 的解析解是极其稀罕的,至少笔者目前还找不到第二例。因此,大多数情况下,我们只能用数值计算方法近似估算(8)。由于 ,所以我们可以直接凑微分得:

,那么

其中 是   的逆函数,在概率中也叫分位函数(Quantile Function、Percent Point Function 等)。

从上式可以看到,只要我们知道 的解析式,就可以对 进行近似计算。注意我们不需要知道 的解析式,因为采样点 的结果我们可以用其他数值方法提前计算好。

以标准正态分布为例,,而主流的深度学习框架基本上都自带了 函数,所以 的计算是没有问题的;至于 我们可以通过 scipy.stats.norm.ppf 来事先计算好。所以当 采样自标准正态分布时, 的计算在主流深度学习框架中都是没问题的。



文章小结
本文从重参数角度对 Softmax 进行推广,得到了一类具备相似性质的概率归一化方法。


参考文献

[1] https://kexue.fm/archives/6705

[2] https://en.wikipedia.org/wiki/Gumbel_distribution




更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存